查看原文
其他

用gensim库做文本相似性分析

2017-04-08 大邓 大邓带你玩python

之前我们讲到的文本分析包括情绪分析、共线性,也制作了词云图。今天我们在学习点关于文本相似性的知识,说好了大邓只是在此抛砖引玉,具体想学想深入的可以去看文档。

gensim简介

gensim是一个主题模型的python库,它可以将文本转换为向量,抽取文本中的关键词,比较文本间的相似程度。

gensim好用的地方是可以实现word2vec,这个算法大邓不懂内在运行时如何进行的,只知道输入的是文本,输出的是向量。


gensim有三个主要的模块,在本文中都会用到。

corpora:将文本转为向量,这里的向量是很简单的模型向量,只是为文档建立词典,然后计算文档中每个词出现的次数

models:将corpora得到的简单的模型向量转换为其他不同的向量,柏阔tfidf,lsi,lda等。

similarities:计算文本相似度的方法。


gensim官网http://radimrehurek.com/gensim/index.html

小案例

更多内容

爬虫

  爬虫实战视频专辑

【视频】手把手教你抓美女~

 当爬虫遭遇验证码,怎么办

 知易行难

 用词云图解读“于欢案”

【视频】于欢案之网民的意见(1)?

【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

【视频教程】用python批量抓取简书用户信息

  爬豆瓣电影名的小案例(附视频操作)

  爬豆瓣电影名的小案例2(附视频操作)

  python代理爬虫抓豆瓣电影数据(一)

  python代理爬虫抓豆瓣电影数据(二)

  用Python抓取百度地图里的店名,地址和联系方式

  Python大法好:贴吧爬虫大法

文本分析

  python居然有情感??真的吗??

  基于共现发现人物关系的python实现

  用python计算两文档相似度

神奇的python

 怜香惜玉,我用python帮助办公室文秘

 逆天的量化交易分析库-tushare

 开扒皮自己微信的秘密

 8行代码实现微信聊天机器人

 使用Python登录QQ邮箱发送QQ邮件



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存